Big Data and Analytics Python এবং Java ব্যবহার করে UDF তৈরি করা গাইড ও নোট

375

User Defined Functions (UDFs) হল Spark SQL-এ ব্যবহারকারীর কাস্টম ফাংশন যা ডেটা ট্রান্সফরমেশন এবং প্রসেসিংয়ের জন্য তৈরি করা হয়। UDFs ব্যবহার করে আপনি Spark SQL-এ SQL কোয়ারির মধ্যে কাস্টম লজিক প্রয়োগ করতে পারেন। Spark SQL-এ UDFs তৈরি করা যায় Python এবং Java-এর মাধ্যমে।

এই টিউটোরিয়ালে আমরা Python এবং Java ব্যবহার করে Spark SQL-এ UDF তৈরি এবং ব্যবহার করার পদ্ধতি দেখব।

1. Python ব্যবহার করে UDF তৈরি করা

Python-এর মাধ্যমে Spark SQL-এ UDF তৈরি করা সহজ। আমরা pyspark.sql.functions.udf ব্যবহার করে UDF তৈরি করতে পারি। একটি সাধারণ কাস্টম ফাংশন যা DataFrame বা SQL কোয়ারিতে ব্যবহার করা যায়, তা Spark SQL-এ UDF হিসেবে রেজিস্টার করা হয়।

Python উদাহরণ: UDF তৈরি এবং ব্যবহার

from pyspark.sql import SparkSession
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

# SparkSession তৈরি
spark = SparkSession.builder.appName("Python UDF Example").getOrCreate()

# কাস্টম ফাংশন যা স্ট্রিংকে ছোট হাতের অক্ষরে রূপান্তর করে
def to_lower_case(s):
    if s:
        return s.lower()
    return None

# UDF রেজিস্টার করা
to_lower_case_udf = udf(to_lower_case, StringType())

# ডেটা তৈরি
data = [("Alice",), ("BOB",), ("Charlie",)]
columns = ["Name"]
df = spark.createDataFrame(data, columns)

# UDF প্রয়োগ করা
df_transformed = df.withColumn("lower_case_name", to_lower_case_udf(df["Name"]))
df_transformed.show()

আউটপুট:

+-------+--------------+
|   Name|lower_case_name|
+-------+--------------+
|  Alice|          alice|
|    BOB|            bob|
|Charlie|        charlie|
+-------+--------------+

এখানে:

to_lower_case হল একটি কাস্টম ফাংশন যা স্ট্রিংয়ের সমস্ত অক্ষরকে ছোট হাতের অক্ষরে রূপান্তর করে।
udf(to_lower_case, StringType()) ব্যবহার করে Python UDF তৈরি করা হয়েছে, এবং withColumn ব্যবহার করে DataFrame এ UDF প্রয়োগ করা হয়েছে।

2. Java ব্যবহার করে UDF তৈরি করা

Java-তে Spark SQL-এ UDF তৈরি করার জন্য org.apache.spark.sql.functions.udf ব্যবহার করা হয়। Java UDF সাধারণত একটি ক্লাসে থাকে এবং একটি কাস্টম ফাংশন রিটার্ন করে, যা SQL কোয়ারি বা DataFrame অপারেশনে ব্যবহার করা যায়।

Java উদাহরণ: UDF তৈরি এবং ব্যবহার

Java UDF তৈরি করা:

import org.apache.spark.sql.api.java.UDF1;
import org.apache.spark.sql.types.DataTypes;

public class UpperCaseUDF implements UDF1<String, String> {
    @Override
    public String call(String s) throws Exception {
        if (s != null) {
            return s.toUpperCase();
        }
        return null;
    }
}

UDF রেজিস্টার এবং ব্যবহার করা:

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.functions;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkUDFExample {
    public static void main(String[] args) {
        SparkSession spark = SparkSession.builder()
                .appName("Java UDF Example")
                .getOrCreate();

        // UDF রেজিস্টার করা
        spark.udf().register("upper_case", new UpperCaseUDF(), DataTypes.StringType);

        // ডেটা তৈরি
        Dataset<Row> df = spark.createDataFrame(
                Arrays.asList(
                        new Tuple2<>("Alice"),
                        new Tuple2<>("Bob"),
                        new Tuple2<>("Charlie")
                ),
                Encoders.STRING()
        ).toDF("Name");

        // UDF প্রয়োগ করা
        df.createOrReplaceTempView("people");
        Dataset<Row> result = spark.sql("SELECT Name, upper_case(Name) as upper_case_name FROM people");

        // ফলাফল প্রদর্শন
        result.show();
    }
}

আউটপুট:

+-------+--------------+
|   Name|upper_case_name|
+-------+--------------+
|  Alice|          ALICE|
|    Bob|            BOB|
|Charlie|        CHARLIE|
+-------+--------------+

এখানে:

UpperCaseUDF ক্লাসে call মেথড তৈরি করা হয়েছে, যা ইনপুট স্ট্রিংয়ের সমস্ত অক্ষরকে বড় হাতের অক্ষরে রূপান্তর করে।
Java UDF রেজিস্টার করা হয়েছে এবং SQL কোয়ারিতে ব্যবহার করা হয়েছে।

3. UDF এবং Performance

UDF ব্যবহার করার সময় পারফরম্যান্সের উপর কিছু প্রভাব পড়তে পারে, কারণ Spark UDFs সাধারণত native functions এর চেয়ে ধীর গতিতে কাজ করে। Spark SQL ইতিমধ্যে অনেক বিল্ট-ইন ফাংশন সরবরাহ করে যা অনেক দ্রুত কাজ করে। তবে, যখন বিল্ট-ইন ফাংশনগুলি আপনার নির্দিষ্ট প্রয়োজন পূরণ করতে পারে না, তখন UDF ব্যবহার করা প্রয়োজনীয় হতে পারে।

UDF ব্যবহারের পরামর্শ:

Built-in Functions Prefer করা: Spark-এর বিল্ট-ইন ফাংশনগুলি সাধারণত অনেক দ্রুত এবং অপটিমাইজড। সেগুলি ব্যবহার করার চেষ্টা করুন যেখানে সম্ভব।
UDF সীমিত পরিসরে ব্যবহার করা: UDF ব্যবহার করার আগে তা যাচাই করুন, যদি বিল্ট-ইন ফাংশন দিয়ে কাজ সম্ভব হয়, তবে সেটি ব্যবহার করুন।
Serialized UDF: যখন সম্ভব, Java UDFs ব্যবহার করুন, কারণ তারা সাধারণত Python UDFs-এর তুলনায় আরও দ্রুত কাজ করে।
UDF কোড অপটিমাইজেশন: UDF-এর কোড অপটিমাইজ করে তার পারফরম্যান্স বাড়ানোর চেষ্টা করুন।

সারাংশ

Spark SQL-এ UDF (User Defined Functions) ব্যবহার করে আপনি কাস্টম লজিক প্রয়োগ করতে পারেন যা Spark-এর বিল্ট-ইন ফাংশনগুলি দ্বারা সমর্থিত নয়। Python এবং Java উভয় ভাষাতেই UDF তৈরি করা সম্ভব। Python-এ udf ফাংশন ব্যবহার করে UDF তৈরি করা যায়, এবং Java-তে UDF1 বা অন্যান্য ইউডিএফ ক্লাসের মাধ্যমে UDF তৈরি করা হয়। তবে, UDF ব্যবহারের ক্ষেত্রে পারফরম্যান্সের দিকে নজর দেওয়া প্রয়োজন, এবং সাধারণত বিল্ট-ইন ফাংশন ব্যবহার করা উচিৎ।

Content added By

Rezwan Siddiki Tamim

UDF কী এবং কেন প্রয়োজন? Scalar এবং Aggregation UDFs তৈরি করা UDFs এর জন্য Performance Optimization Techniques

Big Data and Analytics Python এবং Java ব্যবহার করে UDF তৈরি করা গাইড ও নোট

1. Python ব্যবহার করে UDF তৈরি করা

Python উদাহরণ: UDF তৈরি এবং ব্যবহার

আউটপুট:

2. Java ব্যবহার করে UDF তৈরি করা

Java উদাহরণ: UDF তৈরি এবং ব্যবহার

আউটপুট:

3. UDF এবং Performance

UDF ব্যবহারের পরামর্শ:

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Big Data and Analytics Python এবং Java ব্যবহার করে UDF তৈরি করা গাইড ও নোট

1. Python ব্যবহার করে UDF তৈরি করা

Python উদাহরণ: UDF তৈরি এবং ব্যবহার

আউটপুট:

2. Java ব্যবহার করে UDF তৈরি করা

Java উদাহরণ: UDF তৈরি এবং ব্যবহার

আউটপুট:

3. UDF এবং Performance

UDF ব্যবহারের পরামর্শ:

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!